Azure Machine Learning Studio 的 Data Format Conversions 可將資料集的資料做格式轉換,有以下5種:
ARFF 是一個 JAVA 開發的機器學習工具 - Weka 常用的資料格式,若同時有在使用 Weka 工具訓練模型,就可以透過 Convert To ARFF 進行資料轉換,但 ARFF 資料格式不支援以 Python 或 R 程式存取
ARFF 的資料格式內容如下,標頭的部分定義了各個屬性欄位的資料型態及資料名稱、資料的部分放各欄位的資料,以逗點分隔
若要轉換的資料集沒有欄位名稱,在資料轉換之前,可以使用 Edit Metadata 調整資料欄位後,再做轉換
位置:Data Transformation/Manipulation/Edit Metadata
CSV(comma-separated values)是許多機器學習工具會使用的資料格式,也支援以 Python 或 R 程式存取
CSV 資料會以逗點分隔,第一列為欄位名稱
可以將其他資料轉換為 Azure Machine Learning 使用的資料集格式,支援轉換的格式有 ARFF、CSV、TSV,不支援 SVMLight 格式
SVMLight 支援向量機格式,可用來做圖像分類、手寫辨識等,要特別注意的是,將資料轉換成 SVMLight 格式時,會自動將第一欄的資料設定為 Label (標籤),也就是我們的結果欄位,第二攔到最後一欄的資料設定為 feature(特徵),所以再轉換前,通常會使用 Edit Metadata,先處理資料欄位,再做轉換
(1) 以捐血資料處理為例,Blood donation data資料集的資料有以下欄位:
資料詳細說明可參考BLOOD TRANSFUSION SERVICE CENTER
首先辨別資料:
(2) 新增"Edit Metadata",點選右邊"Launch column selector"開啟欄位選擇工具
(3) 選擇 Recency、Frequency、Monetary、Time,點選右下角勾勾
(4) 將欄位設定為"Features"(特徵)
(5) 再新增一個"Edit Metadata",點選右邊"Launch column selector"開啟欄位選擇工具
(6) 選擇"Class"欄位,點選右下角勾勾確認
(7) 將欄位設定為"Label"(標籤)
(8) 新增"Convert to SVMLight"將資料轉換格式
(9) 在 SVMLight 格式中,結果會放在第一欄,0會轉換成-1
TSV(Tab-separated values)資料格式,與 CSV 格式類似,只是是用 Tab 分隔,如果資料內容包含許多逗點值的話,就可以考慮使用 TSV 格式,也支援以 Python 或 R 程式存取
TSV 資料會以 Tab 分隔,第一列為欄位名稱